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基于 目标 的 域 随机 化 方法 在 机 器 人 操作 方面 的 研究 
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摘 要 : 使 用 强化 学 习 解 决 机 器 人 操作 问题 有 着 诸多 优势 ， 然 而 传统 的 强化 学 习 算 法 面临 着 奖励 稀疏 的 困难 ， 且 得 
到 的 策略 难以 直接 应 用 到 现实 环境 中 。 为 了 提高 策略 从 仿真 到 现实 迁移 的 成 功率 , 提出 了 基于 目标 的 域 随机 化 方法 : 
使 用 了 基于 目标 的 强化 学 习 算 法 对 模型 进行 训练 ， 可 以 有 效 的 应 对 机 器 人 操作 任务 奖励 稀疏 的 情况 ， 得 到 的 策略 可 
以 在 仿真 环境 下 良好 运行 ， 于 此 同时 在 算法 中 还 使 用 了 目标 驱动 的 域 随机 化 的 方法 ， 在 提高 策略 泛 用 性 以 及 克服 仿 
真 和 现实 环境 之 间 的 差距 上 有 着 良好 的 效果 ， 仿 真 环境 下 的 策略 容易 迁移 到 现实 环境 中 并 成 功 执行 。 结 果 表明 ， 使 
用 了 基于 目标 的 域 随机 化 方法 的 强化 学 习 算 法 有 助 于 提高 策略 从 仿真 到 现实 迁移 的 成 功率 。 

关键 词 : 强化 学 习 ; 域 随机 化 ; 机 器 人 操作 ; 仿真 到 现实 迁移 

中 图 分 类 号 : TP399 doi: 10.19734/j.issn.1001-3695.2022.03.0108 


Research on goal-based domain randomization method in robot manipulation 


Zhang Xiayu', Chen Xiaoping 
(University of Science & Technology of China, Hefei 230026, China) 


Abstract: Reinforcement learning method has many advantages in solving the robot manipulation problems. However, the 
traditional reinforcement learning algorithm faces the difficulty of sparse reward, and the policy is difficult to be directly 
applied to the reality. In order to improve the success rate of policy migration from simulation to reality, this paper proposes 
a goal-based domain randomization method: The method uses the goal-based reinforcement learning algorithm to train the 
model, which can effectively deal with the sparse reward of robot manipulation tasks, and the policy can run well in the 
simulation environment. At the same time, the method uses the goal-conditioned domain randomization algorithm, which has 
a good performance on improving the universality of policy and overcoming the reality gap between simulation and reality. 
The policy in simulation is easy to migrate to reality and execute successfully. The results show that the reinforcement learning 
algorithm using the goal-based domain randomization method helps to improve the success rate of policy migration from 
simulation to reality. 


Key words: reinforcement learning; domain randomization; robot manipulation; sim-to-real 


0 ”引言 解决 机 器 人 操作 任务 的 发 展 方向 。 

m 关于 如 何 解决 这 个 现实 差距 的 问题 ， 目 前 存在 着 许多 种 
随 着 人 工 智 能 技术 的 发 展 ， 自 动 化 设备 的 普及 ， 机 器 人 方法 。 将 控制 策略 从 仿真 转移 到 现实 世界 的 问题 可 以 看 做 是 
操作 在 现实 生活 中 扮演 着 人 印发 重要 的 角色 趾 。 不 同 于 传统 的 域 自 适 应 的 一 个 实例 ， 在 源 域 中 训练 的 模型 被 转移 到 新 的 
任务 规划 方法 ， 强 化 学 习 使 得 智能 体 通过 与 环境 的 交互 ， 根 标 域 。 这 些 方 法 基于 一 个 关键 的 假设 : 不 同 的 域 具有 共同 的 
据 奖励 函数 的 反馈 ， 自 主 发 现 最 优 策 略 ， 而 不 需要 设计 者 去 特征 ， 因 此 在 其 中 一 个 域 中 学 习 到 的 表征 和 行为 在 另 一 个 域 
关心 解决 问题 的 具体 细节 让 ， 因 此 在 解决 机 器 人 操作 问题 方 中 也 可 以 利用 。 其 中 ， 域 适应 方法 (Domain Adaption) 通 过 学 
面 有 着 天 然 的 优势 : 例如 OpenAI 的 团队 已 经 在 机 械 灵 巧 手 习 一 个 模拟 环境 和 现实 环境 共同 的 状态 到 隐 变 量 空间 的 映射 ， 
上 实现 了 复杂 的 操作 B， 而 国内 团队 也 在 Kinova 机 械 辟 上 利 在 模拟 环境 中 ， 使 用 映射 后 的 状态 空间 进行 算法 的 训练 ; 在 
用 强化 学 习 实 现 了 物体 的 抓 取 中。 迁移 到 现实 环境 中 时 ， 同 样 将 状态 映射 到 隐 含 空间 后 即 可 直 
机 器 人 操作 的 问题 的 任务 空间 巨大 ， 奖 励 稀 疏 ， 而 复杂 接应 用 在 模拟 环境 训练 好 的 模型 可 。 而 域 随机 化 (domain 
操作 任务 又 难以 直接 人 工 定义 奖励 函数 ， 因 此 在 实际 应 用 的 randomization) 的 方法 则 是 对 模拟 环境 中 的 信息 或 者 参数 进 
声 景 中 ， 基 于 强化 学 习 的 算法 仍旧 面临 着 巨大 的 挑战 。 行 随机 化 。 从 理论 的 角度 ， 陈 驴 宇 等 人 中 对 仿真 到 现实 迁移 
另 一 方面 ， 在 实际 操作 任务 中 使 用 强化 学 习 也 面临 着 强 这 一 经 典 问 题 给 出 一 个 理论 的 解释 模型 ， 尤 其 是 对 域 随机 化 
EE 困难 ， 直 接 在 现实 环境 中 采样 训练 难以 执行 ， 比 如 : 采样 算法 为 什么 有 效 和 在 什么 场景 下 有 效 等 问题 给 出 理论 解释 。 
效率 太 低 ， 训 练 和 测试 的 过 程 对 人 员 和 设备 都 十 分 危险 。 将 通过 POMDP 模型 的 论证 ， 证 明了 域 随 机 化 对 于 解决 机 器 人 
仿真 环境 中 学 习 训 练 得 到 的 策略 直接 应 用 在 现实 场景 中 看 似 操作 领域 的 仿真 到 现实 的 迁移 问题 有 着 良好 的 效果 。 并 证 明 
可 行 ， 但 因为 仿真 器 对 于 现实 物理 环境 建 模 的 误差 和 仿真 环 了 域 随机 化 方法 有 着 出 色 的 性 能 保证 ， 优 秀 的 设计 理论 上 可 
境 获 取 数 据 与 实际 采样 时 会 产生 的 误差 和 干扰 会 导致 策略 无 以 实现 不 使 用 任何 真实 场景 数据 的 训练 。Peng 等 人 [通过 随 
法 使 用 ,因此 ,解决 仿真 环境 和 现实 世界 环境 之 间 的 不 匹配 ， 机 化 物理 参数 的 方式 ， 将 智能 体 在 大 量 不 同 物理 参数 确定 的 
克服 “现实 差距 ”(Reality Gap) 带 来 的 影响 ， 是 通过 强化 学 习 虚拟 环境 中 优化 累积 回报 的 期 望 值 ， 试 图 使 训练 出 的 策略 更 
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加 和 鲁 棒 。Chebotar 等 人 图 以 此 为 基础 在 域 随 机 化 物理 参数 之 “算法 使 用 二 元 的 奖励 函数 就 已 经 训练 不 出 结果 了 。 
后 ， 利 用 现 有 策略 在 虚拟 环境 和 现实 中 对 于 相同 的 初始 状态 再 以 机 器 人 操作 任务 中 最 常见 的 推 箱子 (Pushing) 为 例 ， 
分 别 产 生 一 条 轨迹 ， 通 过 比较 两 条 轨迹 的 差距 修正 随机 化 的 ”在 和 常规 的 仿真 环境 下 ， 状 态 空间 S 设置 为 智能 体 可 以 运动 到 
物理 参数 。Tobin 等 人 四则 使 用 域 随 机 化 的 方法 随机 化 了 环境 ”的 所 有 人 位置， 动作 空间 是 一 个 二 维 的 元 组 (xy) 代 表 智 能 体 在 
的 视觉 表示 。Niu 等 人 59 使 用 域 随机 化 方法 提升 了 自动 驾驶 x 和 y 方 向 上 行进 的 距离 ， 通 常 步 长 是 0.01 秒 ， 设 置 的 步 长 
在 仿真 环境 下 训练 的 鲁 棒 性 。 上 线 是 200 步 ,一 个 简单 旦 容易 构造 的 奖励 函数 二 元 奖励 r(s， 
上 述 方法 在 关注 源 域 和 目标 域 即 仿真 和 现实 差异 的 时 候 。 8g)， 它 只 返回 了 给 定 状 态 是 否 满足 目标 。 对 于 每 一 步 ， 都 会 
重视 了 客观 环境 上 的 差异 (一 般 是 物理 参数 的 差异 )， 而 对 于 ”对 初始 状态 和 目标 状态 进行 统一 采样 ， 只 要 没有 达到 目标 状 
环境 中 驱动 的 实体 差异 关注 较 少 。 事 实 上 机 器 人 操作 本 身 是 。” 态 ， 策 略 就 将 获得 一 个 -1 的 奖励 ， 即 : 
一 个 欠 驱 动 的 系统 ， 对 于 系统 实际 控制 的 结果 往往 和 模型 预 ao- goal 6) 
期 的 也 有 差距 ， 这 个 差异 主要 是 由 驱动 器 的 驱动 方式 和 传 感 -l otherwise 
器 反馈 的 偏差 造成 的 ， 和 环境 参数 的 误差 关系 不 大 ， 使 用 精 在 推 箱子 任务 中 ， 如 果 使 用 了 上 述 的 奖励 函数 ， 则 只 有 
度 更 高 的 驱动 器 可 以 缩小 这 个 差距 但 是 无 法 完全 抹 除 ， 对 于 当 箱 子 被 推 到 目标 位 置 的 时 候 才 能 获得 正常 的 奖励 ， 其 他 的 
环境 参数 的 随机 化 在 这 个 方面 往往 无 能 为 力 。 时 候 都 将 只 获得 -1 的 奖励 , 当 操 作 的 任务 空间 比较 大 的 时 候 ， 
除了 域 相关 的 方法 外 ，Andrei 等 人 00 则 通过 将 一 类 特殊 ”这 个 奖励 将 会 过 于 稀 疏 以 至 于 大 部 分 算法 都 难以 收敛 。 
的 渐进 式 神 经 网 络 (progressive neural network) 扩 展 到 强化 学 对 于 可 以 充分 建 模 的 任务 ， 强 化 学 习 算 法 可 以 通过 精心 
习 中 来 训练 模型 。Christiano 等 人 023 则 是 利用 逆 动 力学 模型 ” 设计 的 奖励 函数 来 引导 智能 体 实现 任务 的 总 体 目 标 。 例 如 前 
(inverse dynamic model) 的 方法 ,然而 这 些 方法 比较 依赖 模型 ， 面 提 到 的 位 翻转 任务 ， 如 果 将 奖励 函数 设计 为 
在 不 同 操作 任务 之 间 的 泛 化 性 能 较为 一 般 。 r(,.) 7 -]s.a — lf (4) 
综 上 所 述 ， 目 前 的 方法 在 克服 仿真 和 现实 之 间 的 差异 方 则 一 般 的 强化 学 习 算 也 能 表现 出 优异 的 性 能 。 但 是 ， 对 
而 各 有 长 处 ， 然 而 都 难以 保证 迁移 成 功率 的 同时 兼顾 训练 的 于 复杂 问题 ， 设 计 奖 励 函 数 的 难度 往往 十 分 巨大 ， 并 可 能 使 
速度 和 算法 在 不 同 任务 中 的 泛 用 性 。 因 此 本 文 提 出 了 一 种 基  ” 策略 偏向 于 采用 不 太 理 想 的 行为 。 现 实 中 机 器 人 操作 的 任务 
于 目标 的 域 随机 化 方法 ， 通 过 经 验 回放 的 方法 解决 了 强化 学 。 ”环境 都 是 复杂 的 ， 对 于 其 中 的 大 多 数 任务 来 说 构造 一 个 专用 
习 中 奖励 稀疏 的 问题 ， 同 时 通过 域 随机 化 方法 提高 了 策略 对 ”的 奖励 函数 并 不 现实 。 因 此, 本 文 利用 事后 经 验 回放 (41(HER) 
于 现实 环境 和 仿真 环境 差异 的 适应 能 力 ， 不 仅 在 训练 效率 上 解决 这 个 问题 ， 目 的 就 是 可 以 使 用 稀疏 奖励 和 非特 定 构造 的 
优 于 其 他 域 随机 化 算法 ， 还 保证 了 在 现实 环境 执行 任务 的 时 ”二 元 奖励 函数 来 训练 策略 。 
候 有 着 较 高 的 成 功率 。 oo 个 简单 的 想法 : FA 
a 的 奖励 空间 中 进行 强化 学 习 训练 往往 会 产生 大 量 的 失败 轨迹 ， 
1 ”机 器 人 操作 问题 如 果 能 将 这 些 失 败 的 轨迹 利用 起 来 ， prede 
134 强化 学 习 的 机 器 人 操作 任务 可 能 使 用 简单 的 非 精 心 构造 的 奖励 函数 来 训练 一 个 可 行 的 策 
Ra 略 。 在 一 次 失败 的 轨迹 中 ， 真 正 的 目标 G 在 整个 轨迹 中 都 
个 强化 学 习 问 题 031。 在 机 器 人 操作 任务 中 ， 通 常 可 以 将 一 未 实现 。 而 由 于 失败 的 轨迹 没有 实现 目标 ， 智 能 体 则 完全 无 
标准 的 强化 学 习 模型 描述 为 : 一 个 智能 体 (agenbD 通 过 ro 法 从 这 样 的 奖励 信息 中 去 更 新 策略 ， 即 整个 轨迹 在 每 一 个 时 
交互 来 使 得 回报 最 大 化 的 过 程 ， 为 了 便于 接 下 来 的 描述 ， 本 ” 间 步 都 只 有 -1 的 奖励 对 于 一 般 的 强化 学 习 算 法 是 难以 利用 的 。 
文 假设 问题 的 环境 是 可 完全 观测 的 。 一 个 确定 的 策略 r(als) 在 回放 中 ， 对 于 没有 到 达 目 标的 轨迹 ， 提 取出 这 些 轨迹 已 经 
是 从 状态 S 到 行为 A 的 映射 , 对 策略 的 每 个 查询 都 会 从 特定 ”完成 的 状态 作为 虚拟 目标 ， 利 用 这 个 虚拟 目标 给 出 轨迹 的 奖 
分 布 中 对 操作 进行 采样 。 奖 励 函 数 r:SxA->R 则 返回 一 个 值 ， 励 同 时 使 用 强化 学 习 的 方法 进行 训练 。 虽 然 该 轨迹 在 原 目 标 
表示 的 是 在 给 定 状 态 下 执行 特定 操作 的 价值 。 状 态 转 移 概率 下 不 成 功 ,但 在 新 的 虚拟 目标 下 它 将 成 为 成 功 的 轨迹 。 因 此 ， 
P(Sals.a) 表示 的 是 状态 执行 动作 w 后 转移 到 状态 sa 根据 虚拟 目标 计算 的 奖励 将 不 会 只 有 -1。 通 过 重 现 过 去 的 经 
的 概率 分 布 。 在 每 个 时 间 步 +，, 智能 体 都 会 根据 当前 状态 从 策 。 历 , 智能 体 可 以 用 比 原始 记录 轨迹 中 更 成 功 的 例子 进行 训练 。 
略 中 生成 一 个 操作 : e =al). RECEA nra), 事后 经 验 回放 0 是 一 种 基于 目标 0509 的 强化 学 习 算 法 ， 
并 从 状态 分 布 p(1s,a) 中 得 到 新 的 状态 。 智 能 体 的 目标 是 最 ”在 训练 策略 的 同时 ， 输 入 的 状态 不 仅 包含 原本 的 状态 s E 


大 化 其 预期 回报 ga ， 其 中 ys[04] 是 折扣 率 。 动 作价 值 函 数 


定义 为 


Q, (s.a) - E[R, |s,,a,] 


车 对 于 任何 mes, 
Q, (5,4)>0. (s.a) 


(1) 


都 有 一 个 策略 x 使 得 
,， 则 将 产 称 为 最 优 策略 。 所 有 最 优 策略 都 具 


有 相同 的 2 函数 ， 称 为 最 优 2 函数 并 表示 为 8'。 最 优 函 数 e 


满足 以 下 贝尔 曼 方程 : 


Q' (s.a) = Ealr(s,a) + ymaxQ" (s',a')] 


1.2 事后 经 验 回放 


因为 机 器 人 操作 的 任务 空间 ， 奖 励 比较 稀 玻 ， 


化 学 习 算法 难以 收敛 。 对 于 大 多 数 强 化 学 习 算 法 来 说 ， 
玻 的 二 元 奖励 中 学 习 到 成 功 的 策略 是 一 个 巨大 的 挑 
数位 翻转 的 任务 为 例 : 这 个 人 各 


， 动 作 是 从 n 个 位 置 中 任意 挑选 


上 ， 以 简单 的 二 进 制 
态 是 二 进 制 数 序列 5={0,1y 


Q) 


一 般 的 强 
从 稀 


事实 


成 。 
tni 


个 位 置 进行 翻转 。 如 果 奖励 函数 设置 为 : 当 


序列 


E 确 为 0， 


否则 为 -1。 则 当 序 列 长 度 达 到 20 以 上 之 后 , 传统 的 强化 学 习 


时 加 上 了 一 个 新 的 目标 g ， 
slig o EX Ss 为 选取 新 的 g 的 策 
个 状态 s 之 后 的 随机 K 个 s 作为 


相当 于 此 时 的 状态 可 以 表示 为 
名, 这 里 使 用 同一 轨迹 中 的 某 
标 g ,在 设置 好 目标 8 之 后 


即 可 利用 相应 的 轨迹 生成 新 的 奖励 。 

在 事后 经 验 回 放 中 使 用 了 DDPG(Deep deterministic 
policy gradient) 算 法 作为 离线 (off-policy) 强 化 学 习 算 法 [171。 
DDPG 是 解决 连续 控制 型 问题 的 一 个 算法 , 在 DDPG 网 络 结 
构 中 ， 需 要 维护 两 个 神经 网 络 : 一 个 Critic 网 络 用 于 对 Q fü 
进行 评估 , 一 个 Actor 网 络 用 于 生成 目标 策略 x(als) 。 下 面 是 
对 于 整体 HER 算法 的 描述 : 

算法 1 事后 经 验 回放 (HER) 

输入 : 离线 强化 学 习 算 法 A; 目标 选取 策略 $8 ; 奖励 函数 r; 
输出 :训练 好 的 策略 网 络 
1: 初始 化 A， 回 放 缓 冲 区 R 


2: for episode i 
3: 


n range 


获得 初始 状态 s。 和 目标 g 
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4 for t in range (0, T-1) 行 符合 特定 随机 化 分 布 的 处 理 。 通 过 随机 化 目标 (goal)， 来 使 
5: 根据 当前 状态 s, 和 g 计算 出 下 一 步 的 动作 a, 得 训练 出 的 策略 对 于 任务 执行 过 程 中 达到 的 结果 和 预计 目标 
6: 执行 动作 a, 得 到 新 的 状态 a 的 差异 有 更 好 的 兼容 性 。 
7 end for HEFIR E 11058 ENLT 35 EH T Be PLI DUE 
8 for t in range (0, T-1) 言 息 ， 包 括 杂 物 的 形状 和 数目 、 待 操作 物体 的 纹理 和 位 置 、 
9: 5 —r(5.a,. g) 桌子 和 地 板 等 背景 纹理 、 模 拟 相 机 的 位 置 和 方向 、 背 景 光 源 
10: 将 轨迹 (s, gansal) 存 入 缓冲 区 R 内 的 数量 和 人 位置、 物体 表明 对 光 反 射 的 性 质 等 。 对 于 这 类 数据 
11: 新 的 目标 G«sJUT Zum 随机 化 则 是 考虑 到 智能 体 观 察 世界 的 方式 有 限 ， 无 法 获得 物 
12: r'=r(s,,a,,8') 体 的 材质 等 信息 ， 而 这 些 信息 对 于 后 面 的 训练 效果 又 有 着 很 
13: Xe Gs | esas rs sall g) A R 大 的 影响 。 这 类 方法 在 解决 仿真 到 现实 迁移 的 问题 上 的 本 质 
14: end for 思路 与 动力 学 随机 化 相似 ， 也 是 通过 对 于 数据 集 的 扩展 来 缩 
15: 利用 A 和 RR 优化 策略 小 仿真 环境 和 现实 环境 的 差距 ， 目 前 来 看 这 种 差距 是 无 法 完 
16: end for 全 消除 的 。 

本 文 对 目标 驱动 (goal-conditioned) 强 化 学 习 中 的 目标 进 


2 ”基于 目标 的 域 随机 化 算法 行 了 随机 化 ,目标 (goal) 本身 是 这 个 过 程 中 特有 的 状态 ， 和 以 

然而 单纯 的 经 验 回放 算法 得 出 的 策略 泛 用 性 较 差 ， 在 现 。“ 往 随机 化 的 环境 参数 有 着 本 质 的 不 同 。 对 于 目标 的 随机 化 是 
实 环境 中 难以 利用 。 对 于 复杂 的 任务 和 多 变 的 任务 目标 ， 训 ”充分 考虑 了 目标 驱动 的 算法 特点 ， 其 现实 意义 体现 在 ， 机 器 
练 难以 收 剑 。 并 且 当 前 技术 无 法 作出 一 个 能 完全 模拟 现实 环 “人 操作 本 身 就 是 一 个 欠 驱 动 的 系统 ， 对 于 系统 实际 控制 的 结 
境 的 仿真 器 ， 仿 真 环境 和 现实 环境 的 差别 会 导致 策略 迁移 到 ” 果 往 往 和 模型 预期 的 有 差距 ， 这 个 差异 不 完全 是 由 仿真 系统 
显示 环境 中 执行 时 成 功率 很 低 。 再 以 推 箱子 任务 为 例 ， 仿 真 。 的 物理 参数 和 现实 不 同 造 成 的 ， 驱 动 器 的 运动 策略 等 内 容 也 
环境 可 以 取得 准确 的 物 块 坐标 和 机 械 臂 未 端 坐标 ， 但 是 在 现 。 ”会 造成 差异 ， 使 用 精度 更 高 的 驱动 器 可 以 缩小 这 个 差距 但 是 
实 环境 中 重复 相同 实验 的 时 候 ， 上 述 坐 标的 获取 只 能 通过 无 法 完全 抹 除 ， 因 此 对 于 目标 的 随机 化 可 以 让 学 习 到 的 策略 
MCS 这 类 定位 系统 来 实现 , 而 定位 系统 采集 到 的 数据 会 受到 “适应 这 种 欠 驱 动 导 致 的 误差, 从 而 提高 操作 的 成 功率 .此 外 ， 
环境 中 噪声 的 干扰 ， 因 此 存在 采样 误差 。 并 且 显示 环境 的 物 “因为 仿真 环境 对 于 物理 参数 模拟 的 误差 通常 也 会 和 系统 的 欠 
理 特性 难以 完全 在 仿真 环境 中 还 原 ， 同 样 一 个 状态 下 执行 相 “驱动 性 所 大 加 导致 最 终 目标 的 误差 ， 因 此 对 于 目标 的 随机 化 
同 策略 相同 动作 后 得 到 的 状态 不 仅 可 能 与 仿真 环境 下 的 预测 方法 同样 对 于 适应 物理 参数 的 误差 有 较 好 的 效果 。 
不 同 ,更 有 可 能 在 每 一 次 执行 的 时 候 都 有 所 区 别 .具体 的 说 ， 2.2 目标 随机 化 方法 


现实 环境 中 采样 的 频率 、 延 人 运 ， 包 括 执行 策略 过 程 中 的 拉动 HER 算法 天 然 就 是 一 种 目标 驱动 (Goal-conditioned) 的 算 
和 环境 中 无 法 获取 的 细微 差别 ， 都 会 对 结果 产生 干扰 。 法 , 因此 可 以 通过 对 训练 中 的 目标 (goaD 进 行 处 理 来 提高 得 到 


本 文 使 用 域 随机 化 (Domain Randomization) 方 法 来 解决 策略 的 泛 用 性 。 在 训练 的 时 候 , 每 一 段 (episode) 开 始 时 , 都 对 
这 个 问题 : 域 随机 化 就 是 一 种 互补 的 适应 技术 ， 通 过 域 随机 其 中 的 目标 g 进行 随机 化 处 理 ， 加 入 符合 特定 分 布 的 随机 化 
化 的 方式 ， 源 域 和 目标 域 之 间 的 差异 被 建 模 为 源 域 中 的 可 变 ”参数 来 模拟 上 述 情况 。 有 具体 的 操作 为 : 根据 每 个 从 轨迹 中 采 
性 。 考 虑 到 现实 环境 和 仿真 环境 的 差异 是 由 多 种 因素 共同 构 ， 样 的 状态 转移 (transition) 生 成 一 个 新 的 目标 (aew goal), F 
成 的 ， 然 而 最 终 的 结果 都 会 对 于 执行 过 程 中 的 任务 状态 产生 ”本 文 研究 的 内 容 为 机 器 人 的 操作 任务 ， 文 中 的 目标 为 被 操作 
影响 。 因 此 本 文 试图 通过 随机 化 训练 过 程 中 的 目标 这 种 方式 ， ”物体 的 坐标 ， 最 终 的 目标 就 是 操作 任务 需要 将 物体 操作 到 的 
来 模拟 实际 状态 和 目标 之 间 因 为 现实 差距 产生 的 误差 ， 从 而 ”终点 坐标 (对 于 开门 任务 ， 门 把 手 轴 的 中 点 坐标 可 以 作为 目 
使 得 得 到 的 策略 具有 更 强 的 泛 用 性 和 重 棒 性 。 标 )。 新 的 目标 的 选取 采用 了 对 于 未 来 状态 的 预测 (即将 某 个 

为 了 让 训练 出 来 的 策略 有 更 强 的 泛 化 能 力 ， 同 时 在 现实 。 ”状态 转移 所 在 轨迹 中 若干 步骤 后 的 状态 作为 该 状态 转移 的 新 
中 执行 时 有 更 高 的 成 功率 ， 本 文 提出 了 基于 目标 的 域 随机 化 目标 )。 
算法 。 本 文 的 目标 是 训练 一 个 策略 ， 可 以 同时 在 现实 和 仿真 加 入 目标 随机 化 参数 策略 的 目的 是 : 利用 特定 的 方式 对 
环境 中 执行 。 考 虑 到 现实 环境 中 采样 的 困难 ， 本 文 在 仿真 环 ”生成 的 新 目标 进行 随机 化 处 理 ( 因 为 文中 操作 任务 的 目标 ] 
境 下 进行 训练 ， 测 试 其 成 功率 和 训练 速度 ， 然 后 将 得 到 的 策 ”为 操作 物体 的 状态 坐标 ， 随 机 化 处 理 的 方式 就 是 将 目标 中 
性 迁 移 到 现实 环境 中 进行 进一步 的 测试 。 考 虑 到 使 用 的 方法 ， 的 坐标 值 乘 以 一 个 随机 系数 ), 随机 化 处 理 后 的 目标 在 任 
此 处 的 策略 使 用 训练 好 的 神经 网 络 来 表达 。 实 际 测 试 的 时 候 间 范 围 内 相对 于 原始 的 目标 应 当 符 合 特定 的 分 布 。 
通过 将 采样 得 到 的 环境 状态 输入 网 络 来 得 到 每 一 步 的 行动 策 最 后 将 随机 化 处 理 过 的 目标 和 状态 转移 组 合并 存放 入 组 
I. 区 中 ， 利 用 缓冲 区 列表 中 的 数据 进行 训练 。 经 验 回 放 的 部 
2.1 域 随机 化 方法 吏 用 DDPG 这 个 针对 连续 行为 的 策略 学 习 方法 作为 离线 策 
在 仿真 到 现实 迁移 的 问题 中 ， 现 实 环境 作为 目标 域 ， 其 略 算法 。 下 面 给 出 了 仿真 环境 下 采样 训练 以 及 将 目标 进行 域 


ŞA g 


HR 落 


yx 


体 的 物理 特性 是 目前 技术 难以 完全 模拟 的 。 为 了 解决 这 个 ” 随机 化 操作 的 过 程 ， 具 体 流程 如 算法 2 所 示 。 

问题 ,产生 了 一 类 基于 物理 环境 .3 的 随机 化 方法 ,这 类 方法 算法 2 基于 目标 的 域 随机 化 算法 

首先 使 用 随机 的 动力 学 相关 参数 ， 包 括 机 器 人 每 一 部 分 的 质 输入 : 离线 强化 学 习 算法 A 目标 随机 化 参数 策略 六 ; 奖励 函数 r; 
量 、 关 节 接 口 处 的 阻尼 、 被 操作 物体 的 质量 、 物 体 和 桌面 的 输出 : 训练 好 的 策略 网 络 

摩擦 系数 、 桌 子 的 高 度 、 位 置 传感器 的 数据 、 两 次 动作 间隔 1: 初始 化 A， 回放 缓冲 区 R 

的 时 间 步 等 。 对 于 这 些 参数 进行 随机 化 的 目的 是 缩小 仿真 环 2: forepisode in range 

境 在 动力 学 参数 方面 和 现实 环境 的 差异 ， 从 而 提高 任务 的 成 3: 获得 初始 状态 s。 和 最 终 目标 g 

功率 。 而 本 文 提出 的 方法 则 考虑 到 仿真 环境 无 论 如 何不 可 能 4: for t in range (0, T-1) 

和 现实 环境 完全 一 致 ， 目 标 驱 动 的 算法 中 存在 类 似 人 类 操作 5: 根据 当前 状态 s, 和 g 计算 出 下 一 步 的 动作 a, 

过 程 中 的 目标 (goal)。 将 这 个 目标 (goal) 在 操作 空间 范围 内 进 6: 执行 动作 a, 得 到 新 的 状态 sa 
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7: end for 块 的 状态 设置 为 任务 的 初始 状态 。 
8: for t in range (0, T-1) 3) 开 门 (Door-opening): 这 个 任务 相 较 于 前 两 个 任务 复杂 
9: 获得 目标 8 (HER) 了 许多 ， 场 景 中 包含 一 扇 门 框 固定 的 门 和 一 个 机 械 臂 。 任 务 
16: 产生 随机 化 系数 闵 的 目标 是 使 用 夹 爪 握 住 门 把 手 ， 向 下 扳 动 把 手 将 门 打开 ， 再 
11: GogxX 将 门 拉 开 到 一 定 角 度 。 由 于 整体 任务 十 分 复杂 ， 本 文 将 夹 爪 
12: for g' in range G 握 持 住 门 把 手 的 状态 ， 设 置 为 任务 的 初始 状态 。 
13: r'2r(s.a, 8?) 采样 中 的 状态 ， 包 括 了 Mujoco 环境 中 的 机 械 臂 夹 爪 末 
14: 将 轨迹 (5 le sas rs sa lg) EAR 端的 位 置信 息 ， 还 有 环境 中 所 有 物体 的 坐标 。 
15; end for 对 于 目标 在 采样 中 如 何 进行 随机 化 ， 本 文 的 目标 随机 化 
16: end for 参数 选用 的 是 符合 正 态 分 布 的 随机 数 。 即 ， 对 离线 策略 训练 
17: IR] ARI R 优化 策略 的 时 候 采样 中 的 目标 (goaD)， 对 其 进行 了 符合 N(0，0.1) 分 布 
18: end for 的 随机 化 变化 。 
算法 2 的 主要 操作 在 于 迭代 部 分 对 于 目标 的 随机 化 操作 ， 32 仿真 结果 分 析 
在 每 次 迭代 中 首先 使 用 经 验 回 放 方 法 (HER) 获 取 目 标 g， 然 为 了 评估 本 文 提出 的 算法 的 性 能 ， 此 处 与 一 般 强 化 学 习 
后 根据 操作 任务 的 任务 空间 (空间 中 驱动 器 与 待 操作 物体 的 (RL) 算 法 PO， 事 后 经 验 回 放 (HER) 算 法 0 和 动力 学 随机 化 


分 布 范围 ) 和 随机 化 系数 (如 高 斯 分 布 函数 )， 将 目标 随机 化 为 (Dynamics Randomization) 算 法 中 三 种 强化 学 习 算 法 进行 比较 。 
集合 G ， 这 样 得 到 的 集合 G 相对 初始 的 g 在 任务 空间 内 满足 其 中 传统 的 强化 学 习 算 法 。 


随机 化 系数 的 概率 分 布 ， 同 时 集合 G 又 受到 任务 空间 的 约束 ， 1) 成 功率 
防止 产生 过 大 或 过 小 的 数据 影响 训练 。 通 过 上 述 对 8 的 随机 为 了 衡量 不 同方 法 之 间 的 性 能 差距 ， 本 文 在 上 述 的 三 个 


化 操作 ， 得 到 的 集合 G 可 以 一 定 程度 反映 欠 驱 动 操作 系统 的 ”仿真 环境 内 对 几 个 算法 进行 训练 ,在 测试 算法 成 功率 的 时 候 ， 


误差 ， 提 高 算法 迁移 到 现实 环境 之 后 的 成 功率 。 最 后 将 集合 — 为 了 评估 不 同方 法 对 环境 的 适应 性 和 和 鲁 棒 性 ， 本 文 将 测试 中 
中 的 随机 化 元 素 g 和 采样 得 到 的 轨迹 Ga 结合 , 存 入 缓冲 区 ”不 同 任 务 的 初始 环境 都 加 入 了 随机 的 扰动 .下 面 统 计 了 50 次 
用 于 优化 策略 。 本 文 将 训练 和 测试 时 环境 变化 的 程度 比值 定义 为 初始 状态 随 

— PA 机 系数 ,并 在 下 面 的 测试 中 将 初始 状态 随机 系数 设置 为 1.5。 
3 ”实验 与 性 能 评估 表 1 展示 的 是 不 同 算法 在 不 同 实验 环境 中 的 成 功率 差距 。 

本 节 通 过 设置 在 仿真 环境 下 和 现实 中 两 个 部 分 的 对 比 实 dl 不 同 操作 任务 中 的 成 功率 比较 
验 ， 来 评估 本 文 所 提出 的 算法 仿真 任务 中 的 成 功率 ， 训 练 收 Tab. 1 Comparison of success rate on dexterous manipulation tasks 
敛 速度 ， 任 务 参数 变化 后 算法 的 泛 用 性 ， 以 及 迁移 至 现实 环 Method Pushing  Pick&Place ^ Door-Opening 
境 后 任务 的 成 功率 。 RL 5696 10% 6% 

31 环境 配置 HER 64% 38% 10% 

本 次 实验 中 ， 仿 真 环 境 搭建 在 Ubuntu 系统 下 ， 使 用 ] 了 Dynamic Random 84% 42% 34% 
Pytorch 来 进行 网 络 的 搭建 , 使 用 了 Mujoco HE 73338 5| 8E, Goal-based Random 80% 64% 6694 
为 了 保证 训练 出 的 策略 可 以 在 现实 环境 中 测试 ， 本 文 在 仿真 从 结果 可 以 看 出 ， 即 使 经 过 了 细节 的 改进 ， 一 般 强 化 学 
环境 中 对 现实 中 的 环境 进行 了 建 模 ， 包 括 机 械 臂 (URSe)091， 习 算 法 在 面 对 较 大 的 搜索 空间 时 表现 也 比较 一 般 。 事 实 上 ， 
电动 夹 爪 ， 实 验 的 平台 和 部 分 物体 ， 念 真 环境 中 的 场景 如 图 复杂 任务 如 果 不 设置 初始 状态 则 一 般 强 化 学 习 的 成 功率 基本 
1 所 示 。 为 0。 经 验 回 放 方 法 解决 了 搜索 空间 的 问题 ， 但 是 当初 始 状 

态 发 生 随机 改变 之 后 并 不 能 很 好 的 适应 。 物 理 量 域 随 机 化 的 


方法 与 本 文 提 出 的 基于 目标 的 域 随机 化 方法 都 对 经 验 回放 进 
行 了 改进 ， 均 有 着 更 好 的 效果 ， 本 文 的 方法 基于 目标 分 
析 ， 对 于 复杂 任务 的 适应 性 更 强 。 
为 了 更 进一步 的 比较 几 个 算法 之 间 在 不 同 任务 间 泛 用 性 
能 的 差距 ， 此 处 进一步 提高 初始 状态 的 随机 系数 ， 表 2 展示 
的 是 初始 状态 随机 系数 提高 至 2.5 后 不 同 算法 的 成 功率 。 
表 2 更 高 初始 状态 随机 系数 下 的 成 功率 比较 


Tab.2 Comparison of success rate on higher initial state randomness 


Method Pushing — Pick&Place Door-Opening 
RL 22% 0% 2% 
图 1 Mujoco 环境 下 机 器 人 操作 的 可 视 化 HER 60% 44% 14% 
Fig. 1 Visualization of robot manipulation in Mujoco Dynamic Random 58% 38% 16% 
本 文 主要 通过 三 个 不 同 的 任务 场景 来 评估 算法 的 性 能 。 Goal-based Random 76% 52% 32% 
1) 推 箱子 (Pushing): 这 个 任务 的 场景 包含 一 个 桌子 , 放置 2) 收 敛 时 间 
于 桌面 的 物 块 ， 和 一 个 机 械 臂 。 任 务 的 目标 是 使 用 机 械 臂 将 为 了 衡量 算法 的 训练 速度 ， 本 文 还 将 评估 算法 在 训练 中 
物 块 推 至 桌子 上 规定 的 位 置 ,由 于 整体 任务 内 容 不 涉及 抓 取 ， ”收敛 所 需要 的 时 间 ， 图 2 展示 的 是 本 文 所 提出 的 算法 在 不 同 
任务 过 程 中 末端 的 夹 爪 状态 始终 处 于 闭合 。 任务 中 收敛 所 需要 的 训练 时 间 。 
2) 抓 取 (Pick-and-place): 这 个 任务 的 场景 和 推 箱子 类 似 ， 3.3 ”现实 环境 验证 
不 同 之 处 在 于 任务 的 目标 是 使 用 夹 扑 将 物 块 夹 取 至 空中 的 指 为 了 在 现实 环境 中 验证 前 面 训 练 得 到 的 策略 的 可 靠 性 ， 
定位 置 。 整 体 任务 内 容 涉及 到 了 抓 取 ， 所 以 包含 了 对 于 夹 爪 ” 本 次 实验 除了 在 硬件 设备 方面 使 用 了 和 仿真 环境 中 相同 的 配 
开 合 的 控制 。 为 了 保证 训练 的 成 功率 ， 实 验 中 将 夹 扑 夹 住 物 。 E(URSe, Universal Robots) 之 外 , 为 了 准确 获取 场景 中 物体 的 
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IX d, 


坐标 ， 现 实 环境 下 的 机 械 臂 如 图 3 所 示 


Arms 


Jb 


辟 运 动 ， 实 验 中 主机 和 机 械 辟 使 用 


: 基于 目标 的 域 随机 化 方法 在 机 器 人 操作 方面 的 研究 


环境 下 的 实时 控制 ， 
夹 扑 的 张 开 角 度 


以 局 域 网 
夹 扑 本 身 的 舵 机 驱动 进行 反馈 ， 


末端 位 置 则 通过 与 机 械 恬 本 身 的 通信 


获取 。 


任务 ; Pushing 


Python 


播 的 方式 进行 通信 和 控制 。 
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图 2 不 同 任务 中 的 训练 速度 
Fig.2 Training speed in different tasks 


为 了 采集 场景 中 其 他 物体 的 坐标 ， 本 次 实 


务 中 使 用 的 机 械 臂 
Fig.3 Manipulator used in reality 


图 3 现实 任 
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摄像 头 系统 (Multi-camera system，Opti-track)， 通 过 在 物体 表 
看 和 边缘 的 关键 位 置 粘贴 标定 点 ， 可 以 采集 到 物体 在 环境 中 
的 坐标 。 对 于 开门 任务 来 说 ， 为 了 保证 标定 的 准确 性 ， 在 门 
框 ， 门 板 ， 门 把 手 上 都 粘贴 了 多 组 定位 点 ， 以 克服 门 本 身 对 
于 摄像 头 的 遮挡 导致 定位 失效 的 情况 。 为 了 将 MCS 系统 和 
机 械 臂 本 身 的 坐标 系统 一 ， 在 实验 开始 之 前 需要 将 机 械 臂 固 
定 。 此 外 ， 也 需要 在 机 械 臂 的 关键 位 置 和 末端 粘贴 标定 点 ， 
将 机 械 臂 在 MCS 系统 中 的 坐标 进行 标定 ， 以 方便 将 机 械 辟 
本 身 返 回 的 坐标 系 映射 到 MCS 的 坐标 系 中 。 
本 文 在 现实 环境 中 对 算法 进行 了 测试 ， 测 试 的 时 候 主要 
执行 了 开门 (Door Opening) 的 任务 , 并 且 对 于 门 的 初始 位 置 也 
加 入 了 初始 状态 的 随机 系数 。 实 际 实验 中 夹 爪 的 初始 位 置 和 
仿真 环境 中 一 样 均 已 经 夹 住 门 把 手 。 为 了 提高 实验 成 功率 ， 
本 次 实验 选用 了 有 柔性 夹 取 机 构 的 机 械 夹 爪 ， 同 时 在 夹 扑 与 
机 械 臂 连接 处 的 法 兰 盘 使 用 了 3D 打印 的 结构 ， 发 生 严 重 意 
外 的 时 候 只 需要 更 换 3D 打印 结构 即 可 ， 防 止 错 误 的 操作 导 
致 关 键 设 备 损坏 。 表 3 展示 的 是 不 同 的 初始 状态 随机 系数 下 ， 
任务 的 成 功率 。 
表 3 现实 环境 中 开门 任务 成 功率 
Tab.3 Success rate of reality door-opening task 
Initial rate 1.0 1.25 1.5 1.75 2.0 
Success rate 9296 76% 60% 52% 24% 


可 以 看 出 ， 在 上 述 任务 中 现实 环境 中 执行 仿真 环境 下 训 
练 得 到 的 策略 时 ， 当 初始 状态 变化 不 大 的 情况 下 ， 有 着 较 高 
的 成 功率 。 当 初始 状态 变化 较 大 的 时 候 , 相 较 于 仿真 环境 中 ， 
现实 实验 的 成 功率 会 显著 下 降 ， 其 原因 在 于 : 门 把 手 和 门 都 
是 运动 范围 受 限 的 刚体 结构 ， 机 器 人 操作 的 误差 会 导致 机 械 
臂力 反馈 的 急剧 增 大 ， 和 触发 机 械 臂 的 保护 机 制 从 而 导致 任务 
失败 ， 若 没有 力 反馈 的 保护 机 制 则 极 容易 在 操作 过 程 中 损坏 
门 和 夹 爪 。 


4 ARA 


本 文 提出 了 基于 目标 的 域 随 机 化 算法 ， 通 过 将 经 验 回 放 
方法 和 基于 目标 的 域 随 机 化 方法 相 结合 ， 不 仅 在 收敛 速度 方 
法 表现 良好 ， 还 可 以 更 好 的 适应 任务 环境 的 变化 ， 在 任务 初 

台 状态 变化 较 大 的 情况 下 仍旧 取得 了 较 好 的 表现 ， 并 且 在 将 
方法 迁移 至 现实 环境 后 也 可 以 有 着 不 俗 的 成 功率 。 

本 文 的 方法 充分 发 挥 了 基于 目标 的 算法 的 特性 ， 基 于 目 
标的 方法 不 仅 能 在 奖励 稀疏 的 环境 中 提高 训练 的 效率 ， 在 使 
用 了 域 随 机 化 方法 之 后 ， 还 能 提高 在 不 同 环境 任务 中 的 适应 
性 和 和 鲁 棒 性 。 于 此 同时 ， 在 策略 从 仿真 环境 迁移 到 现实 环境 
的 过 程 中 ， 这 种 对 于 环境 差异 的 适应 性 有 效 的 提高 了 策略 迁 
移 的 成 功率 。 

但 是 现实 中 的 具体 操作 任务 ， 往 往 有 着 更 加 复杂 的 任务 
步骤 ， 任 务 的 目标 也 可 能 不 仅仅 是 一 个 具体 的 坐标 点 因而 更 
加 难以 定义 ， 这 些 情况 下 基于 目标 的 算法 往往 难以 取得 很 好 
的 效果 。 如 何在 复杂 困难 的 情况 中 定义 任务 目标 并 选择 合适 
的 随机 化 方法 是 目前 面临 的 主要 困难 。 因 此 ， 尝 试 将 本 文 提 
出 的 方法 扩展 到 更 多 种 类 的 机 器 操作 任务 中 将 是 接 下 来 工作 
的 主要 方向 。 
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